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基于 分 位 函数 的 直方 图 符号 数据 非 负 主 成 分 分 析 法 


"ETE. RER, $E 
(江南 大 学 数字 媒体 学 院 , 江苏 无 锡 214122) 


JE 要 : 针对 已 有 的 符号 数据 主 成 分 分 析 法 大 都 采用 部 分 代表 性 信息 来 代替 符号 数据 的 缺点 ， 提 出 一 种 直方 图 符号 数 
据 的 主 成 分 分 析 法 。 直 方 图 数据 以 概率 分 布 的 形式 表示 符号 数据 ， 更 全 面 准 确 。 根 据 直 方 图 数据 特点 将 其 用 分 位 函数 
表示 ， 引 入 充分 考虑 直方 图 数据 概率 分 布 的 Wasserstein 距离 ， 计 算 直方 图 变量 协 方差 矩阵 ， 从 而 进行 主 成 分 分 析 。 但 
该 方法 求 得 的 前 若干 个 最 大 特征 所 对 应 的 特征 向 量 不 一 定 为 非 负 的 ， 这 样 在 用 分 位 函数 表示 主 成 分 时 不 能 保证 它 也 是 
分 位 函数 。 为 此 ， 又 结合 Dias[1] 等 人 的 DSD(distribution and symmetric distribution) 回 归 模 型 ， 对 每 个 直方 图 变量 定义 
相应 的 对 称 分 布 变量 ， 根 据 Wasserstein 距离 下 的 广义 协 方差 矩阵 得 到 具有 非 负 系数 的 所 有 主 成 分 。 通 过 实验 说 明了 该 
算法 的 有 效 性 。 该 方法 同时 克服 了 文献 [2] 中 直方 图 PCA 系数 可 能 为 负 的 缺点 ， 更 多 地 保留 了 原始 数据 的 信息 。 
关键 词 : 主 成 分 分 析 ; 直方 图 数据 ; 分 位 函数 ; Wasserstein 距离 ; 协 方差 矩阵 
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Principal component analysis of histogram data with non-negative coefficients 
based on quantile function 


Li Zhuting, Chen Xiuhong, Sun Huiqiang 
(School of Digital Media, Jiangnan University, Wuxi Jiangsu 214000, China) 


Abstract: Since the existing principal component analysis(PCA) of symbolic data mostly use some representative information 
instead of symbolic data, a histogram principal component analysis is proposed. Represent a histogram data by a quantile 
function with its characteristic, and introduce the Wasserstein distance which fully takes into account the probability distribution 
of the histogram data. It is easy to obtain the covariance matrix to perform the principal component analysis using this distance. 
However, the eigenvectors corresponding to the first m largest eigenvalues obtained by this method is not necessarily negative, 
so it cannot guarantee that the principal components are also quantile functions when they are represented by the quantile 
functions. For this point, combining the idea of DSD (distribution and symmetric distribution) regression model studied by Dias 
[1]et al, defining the corresponding symmetric distribution variables for each histogram variable, then obtain the non-negative 
principal component coefficients with the generalized covariance matrix. The experiments show the effectiveness of the 
algorithm. Besides, this method overcomes the disadvantage that the PCA coefficient of the histogram in [2] may be negative 
and retains more information of the original data. 
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(CIPCA)BI 以 及 关于 正 态 分 布 的 主 成 分 分 析 法 (ND-PCA) 
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随 着 “大 数据 ”时 代 的 到 来 ， 符 号 数据 有 着 越 来 越 广泛 的 间 型 数据 的 协 方差 矩阵 ， 以 出 


应 用 


对 于 区 间 符 号 数据 , 最 著名 的 有 项 点 主 成 分 分 析 法 CVPCAO 和 [ 方 图 数据 可 以 看 作 是 对 区 间 型 数据 内 部 进行 统计 分 析 的 引 
中 点 主 成 分 分 析 法 (CPCA)， 这 两 种 方法 均 将 一 个 区 间 型 数据 ” 因此 可 以 表示 任意 不 规则 分 布 的 区 间 型 数据 。 
看 作 一 个 超 立 方 体 ， 分 别 用 超 立 方 体 的 项 点 和 中 点 来 代表 整个 由 于 直方 图 数据 可 以 看 做 
超 立 方 体 的 信息 。 后 来 ，Wang 等 提出 了 全 信息 主 成 分 分 析 法 “区间 型 数据 复杂 。 在 已 有 的 直 


H3 


是 一 个 分 布 ， 因 此 计算 起 来 也 上 
方 图 数据 主 成 分 分 析 法 中 ， 很 多 


这 两 种 方法 分 别 假设 区 间 数 据 呈 均匀 分 布 和 正 态 分 布 ， 计 算 区 
进行 主 成 分 分 析 。 然 而 ， 这 | 
， 其 中 最 具 代表 性 的 是 区 间 符 号 数据 和 直方 图 符号 数据 。 方法 都 是 基于 假设 区 间 型 数据 服从 某 种 分 布 的 ,不 具有 普遍 性 
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法 与 区 间 型 数据 类 似 。Rodriguez 等 


人 四 将 直方 图 数据 转换 为 
型 数据 来 进行 计算 。Makosso-Kallyth 和 Diday 呈 提出 了 一 


种 定 
数据 


代表 性 B 
Nagabhushan 和 KumarD] 定 义 了 单位 直方 图 矩阵 
阵 并 由 此 获得 主 成 分 ， 


方 图 
但 是 
不 符 


位 前 数 表 示 形 式 ， 这 种 表示 


复杂 
距离 
区 间 


数 不 一 


义 直 方 图 数据 平均 值 的 方法 ， 用 平均 值 来 代替 整个 直方 图 
， 该 方法 同 许多 区 间 型 主 成 分 分 析 法 类 似 ， 也 是 采用 部 分 
言 息 来 代替 整个 直方 图 数据 变量 的 信息 。 此 外 ， 

E 阵 并 通过 此 类 直 


矩阵 的 加 减 乘除 运算 来 求 得 协 方差 矩 

此 方法 求 得 重 构 后 的 直方 图 可 能 会 出 现 负 值 ， 
， 也 因此 会 丢失 大 量 的 信息 。 
本 文 首先 根据 直方 图 数据 的 特点 提出 一 种 直方 图 数据 的 分 
乡 式 大 大 减少 了 直方 图 数据 计算 的 
度 。 然后 在 分 位 函数 的 基础 上 定义 了 Wasserstein 距离 ， 该 
充分 利用 直方 图 数据 的 概率 分 布 进行 计算 ， 他 只 利用 
端点 信息 的 距离 相 比 ， 对 直 志和 的 全 量 更 准确 。 通 
距离 可 以 求 出 一 组 直方 图 变量 的 中 心 直 方 图 以 及 协 方差 矩 


与 实际 情况 


Chin 
a a ee 


使 参加 计算 的 分 位 函数 具有 相同 的 分 段 〈 其 对 应 的 直方 图 数据 
也 被 重新 构造 使 得 所 有 直方 图 被 分 成 相同 段 数 的 子 区 间 ， 并 且 
对 应 的 同一 子 区 间 上 权 值 相等 )。 


图 1 直方 图 数据 
两 个 直方 图 间距 离 的 表示 

为 计算 两 个 直方 图 变量 7 与 Y 间 的 距离 ,首先 需要 对 其 进 
行 重 构 使 其 对 应 的 分 位 函数 具有 相同 的 分 段 。 根 据 Irpino" H 
Jk, TY, 5 Y RIR W Siwo meow, RLW! gewiss wi } 
按照 从 小 到 大 的 顺序 进行 排列 得 到 集合 


1.2 


进行 合并 


如 直接 利用 该 协 方差 矩阵 进行 主 成 分 分 析 ， 此 时 的 表示 系 
定 全 非 负 ， 而 分 位 函数 为 非 递减 函数 ， 所 以 分 位 函数 线 


性 表 


示 不 一 定 是 分 位 函数 。 为 此 ， 借 助 Diast1 等 人 的 思想 ， 对 


每 个 
算 的 
文献 


及 2010 年 
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1.1 


S =[y,y] o 


1,=[ 


到 Y 


HÈS =L 


数 的 
但 分 


因此 ， 


直方 图 变量 定义 对 称 分 布 变量 ， 对 以 上 主 成 分 进行 修正 。 
法 不 但 解决 了 以 往 算 法 中 只 利用 符号 数据 的 部 分 信息 来 计 
缺点 ， 保 留 了 更 多 原始 信息 ， 更 具有 普遍 性 ， 同 时 克服 ] 
[2] 中 重 构 直方 图 权重 可 能 为 负 这 一 缺陷 。 通 过 模拟 数据 以 
股票 数据 验证 了 本 文 算法 的 有 效 性 。 


直方 图 数据 以 及 Wasserstein 距离 


直方 图 的 定义 及 其 相关 算法 
假设 Y 为 一 个 直方 图 变量 ， 如 图 1 所 示 。 其 所 在 区 间 为 
将 S 划分 为 个 相继 的 区 间 生 ,5…,1} ， 其 中 


Jexl, h-12,4H, LAL=Ø h#b A| JIL =S. TES 


的 直 方 图 表示 : Y -(, f s fs 


Q4. fa) oP OS f <1, 


定义 Y 的 累计 权 为 


Wu Y 的 经 验 分 布 函数 为 


Wi — Wi m 
FO)-wtQ-»x)———. y&y&y (1) 
Mya» X 


那么 ， 它 的 道 函 数 即 其 分 位 函数 (Quantile Function). 为 


t—w, 
全 O, ») 
Wi — Wia 


Q() - F^ (r)- y, 


w, SISW Q) 


由 于 分 位 函数 是 分 段 函数 ， 因 此 ， 将 直方 图 数据 以 分 位 函 
形式 表示 ,降低 了 直方 图 数据 计算 的 复杂 度 ,更 方便 计算 。 
段 函数 进行 运算 时 有 相同 的 分 段 数 与 分 段 区 间 ， 
在 对 直方 图 的 分 位 函数 进行 计算 时 ， 需 要 将 其 重新 构造 


Et TER 
， MWA 


Jj pU WU 7) H 一 ee 
w = {Ww ,mW SW) , 2 中 wo =0 , w, = , H 


此 时 ， 对 每 组 权 w- 和 他 可 确定 两 


max(m nj)€n, €(n,*n,—l), 
个 区 间 : 

L =[Q.w, 1),000%)], 1, 2 [909,09 |. 
KIE, 直方 图 7 与 了 的 分 位 函数 8 与 8; 被 重 写 为 具有 相同 
4 BW! ={ 人 的 分 位 函数 ， 直 方 图 巴 与 六 也 被 表示 为 


每 个 子 区 间 具 有 相同 权重 重 的 直方 图 。 此 时 ， 便 可 对 两 个 具有 相 
同 分 段 的 分 位 函数 进行 计算 。 
定义 两 个 直方 图 变量 7 与》 间 的 Wasserstein 距离 为 

ewy- 00 -0 0 4 - Y; J. [20-0 (ar (3) 
其 中 : 每 组 权 w_ | 和 w 对 应 7 与 的 两 个 区 间 的 中 心 和 半径 分 
别 为 

E Q0.) HQ.) ne $,60- 0.) o u=ij 

TT R 
命题 1 

BOY) rla c ee (4) 

1=1 
NCC (5) 
1=1 

RrBf-.-»-w;. ww, eW*,I-12,-.n; o 


1.9 ”中心 直 方 图 的 求解 

给 定 的 n 个 直方 图 3,%,…,》，， 其 中 心 % 也 是 一 直方 图 变 
。 将 ,号 …,3 的 累积 权 进 行 合并 并 按 从 小 到 大 的 顺序 排列 成 
一 集合 丈 ， 并 记 该 集合 中 元 素 个 数 为 闫 ， 则 由 命题 1 可 知 求 中 
心 直 方 图 即 为 极 小 化 以 下 函数 : 


二 


f (enr set) = 224, (YY, ) 
ie (6) 
-YY (c; 一 Co) T E =Y ] 
ii Tl 
其 中 ， cp 与 为 中 心 直 方 图 基本 区 间 的 中 心 与 半径 。 解 得 : 
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1 n 1 n 
Co 7-26 , h=- È ， L2, m. (7) 
il il 


从 而 n 个 直方 图 数据 的 中 心 直 方 图 表示 为 
Y, = ((Ie,, = fip C nl f) 
(lcn -fps Co 998 E). ea me A) 
14 方差 与 协 方差 
BEX XX, J p 个 相互 独立 的 直方 图 变量 ， 其 中 XX, 中 
的 人 元素,,X%,,…,X 均 为 直方 图 变量 且 相 互 独立 。 
定义 两 个 直方 图 符号 变量 六 和 Xj 的 标量 积 关 


(8) 


XIX, - M f 0, 9, dr (9) 


其 中 : 040 5 Q,0 分 别 为 直方 图 变量 X0) 5 XO 的 分 位 函数 。 
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引 根 据 式 (10) 和 (13) 计 算 直 方 图 数据 X,,X,,…,X, 的 协 方差 
和 矩阵 D; 
b) 求 解 特征 方程 Du = Au 的 前 m 个 最 大 特征 值 
A ZÀ,2.-2 An ROS HFIIEAEREIEIIE uy 2u, 2-2 u,, 


mtzp; 


OW ROB k 个 主 成 分 五 = Xu, =P uX, kem. 
mtr, " 
22 基于 分 位 数 的 非 负 直方 图 主 成 分 分 析 法 

在 上 述 过 程 中 ， 对 协 方差 矩阵 进行 求解 ， 所 得 到 的 特征 值 
与 特征 向 量 不 能 保证 全 部 非 负 ， 因 此 在 对 直方 图 进行 重 构 计算 
主 成 分 直方 图 时 可 能 会 出 现 问题 。 另 外 ， 主 成 分 做 也 可 以 用 分 


wO 为 直方 图 变量 Xj 的 中 心 直 方 图 的 分 位 函数 表示 
形式 ， 根 据 Wasserstein EB, X, 的 方差 为 
1&4. Pg In UA Em 
Var(X ) - 9 (X, X) =-=) [,.19,(0 - Q, (OF dt (10) 
nia n ja 


标准 差 为 STD(X,)= [Var(X )) , 


从 而 X; 的 标准 化 偏差 为 
Q,()-Q,0) 0,(D)-Q,(n) 
SD.. LI i al j 
ph STD(X,) Var(X,) p OSESI C1) 


可 以 证 明 以 下 结果 成 立 : 
命题 2 219,0-9,01-0 | 
X, 5 X, 的 协 方差 为 

COVARX X) - Ph 0,0 - Q, (0X0, -GO 
则 由 命题 2 得 


COVARX X) =+ Y j GOU Od- |o or (13) 


lg! E 
5 2 5D, (1 dt-1l, 


(12) 


2 直方 图 数据 非 负 主 成 分 分 析 法 
21 经 典 主 成 分 分 析 法 向 直方 图 数据 的 推广 

根据 经 典 主 成 分 分 析 法 ,直方 图 数据 X,,X,.…,X, 的 主 成 分 
Y 定义 为 它们 的 线性 组 合 ， 即 了 = 区 = 立 woX ， 其 中 
u — 5,4, 满足 wu=1。 那 么 主 成 分 了 的 方差 为 : 


p 
VARY) - VAR u;X,) »u Du ， 其 中 D Jg Xo X, X, 的 协 方 
j=1 


差 矩 阵 


; dej 
COVAR(X, X,), is j 


j— , 


- eui ) 


所 以 求 主 成 分 转换 为 条 件 u u — 1 PCR 2$ VARY) BR JC 
化 问题 : 


max uw Du 

st. uusl ua 
此 问题 的 求解 可 以 转换 为 求 协 方差 矩阵 D 的 特征 值 和 特 
VERS EE. id A, 7g D 的 第 k 个 最 大 特征 值 ， 对 应 的 特征 向 量 为 
u HEA 2A 2-24, r-erank(D), WEAD EI REA 


k? x 


矩阵 的 第 k 个 主 成 分 表示 为 


p 
Y, = Xu, = uX, ,k-kZesr. 
j=1 


于 是 ， 得 到 以 下 直方 图 数据 的 主 成 分 分 析 算 法 : 


位 函数 表示 : 


á 
QD= T u0 0, i[512,-.», Ost. 
j 


由 于 分 位 函数 是 单调 增加 的 ， 且 只 有 单调 增加 函数 的 正 线 
性 组 合 才 是 单调 增加 的 ， 所 以 为 保证 主 成 分 Q1 CO 也 是 分 位 
Wo Suus 也 必须 是 非 负 的 ， 即 4 >0 ，7=12… 

Dias 等 人 "给 出 了 一 种 非 负 约束 下 基于 分 位 函数 间 
Wasserstein 距离 的 回归 方法 ， 通 过 在 回归 表达 式 中 增加 对 称 分 
布 的 分 位 函数 而 扩充 了 回归 因子 的 个 数 。 以 下 利用 该 思想 研究 
非 负 约束 的 主 成 分 分 析 法 并 给 出 主 成 分 分 位 函数 的 修正 形式 。 

假设 随机 变量 X; 的 经 验 或 理论 概率 密度 函数 为 (其 
分 位 函数 为 @; )， 其 对 应 的 对 称 分 布 声 〈 分 位 函数 为 @, ) 是 
将 fy 的 支撑 乘 以 -1 并 使 得 两 个 分 位 函数 和 的 积分 为 零 ， 即 
[o 9, kr=0。 于 是 主 成 分 Y 的 分 位 函数 表示 的 修正 
形式 为 


p p H 
Qi (0 = 3u,Q,(0* 9 i, O, (0, (16) 
j=1 j=l 
Hp: up z0, 4,20, 


W5 X, 对 应 的 对 称 分 布 的 变量 为 Xs ， 其 对 应 的 的 分 位 
函数 表示 为 @, ， 变 量 况 | = DG Xs XT QGoL2 sp) 
维 随机 向 量 ， 那 么 原始 变量 组 和 = DG. Xs X, DSERHTDSERR 
Afi) X 2[X, X, X,]. Br EB 
X 2[X,, X, X, X, X, X ] 2 DX, X ] f 27 E ES 
V, 于 是 在 非 负 约束 条 件 〈 即 v > 0) 下 极 大 化 方差 v7Vv 可 表 
示 为 以 下 优化 问题 : 


max viW 
， (17) 
st. vyzl v20 
T "S 
Arp v —[v vj, S VV Vous Vas] 。 由 于 该 问题 UR E 


负 约 束 ， 所 以 不 能 直接 将 之 转换 为 求 协 方差 矩阵 严 的 特征 值 
与 特征 向 量 。 但 它 本 身 是 一 个 二 次 优化 问题 ， 故 可 通过 非 线性 
优化 算法 来 求解 。 假 设 vO 是 其 最 优 解 ， 则 第 一 个 主 成 分 为 


p Pp E NA 
y? 2 xy? 2 Wy X AY ,X,, HORN 
j=1 je 
x? 2 x? -yy ; (18) 
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其 中 : x 2x MEX" WEE V, ,用 VV 替换 问题 
(UD 中 的 天 并 求 得 v2 ,从 而 有 第 二 个 主 成 分 y® 2x "yo 。 
重复 以 上 过 程 ， 得 以 下 迭代 式 ， 


x^ =X YOvY, (19) 
HR x BDA AERE V, ARAN V A 


y, AME k 个 主 成 分 为 了 ds 2x Veo 。 如 此 下 去 ， 即 


RI X MA r AERD, AP r= rank(V) 。 

以 上 方法 最 重要 的 特性 是 所 有 v, v”, vO 均 为 非 负 的 
BREK, 但 它们 不 必 正 交 , HÆ Wasserstein 距离 下 y 的 最 
Eg y 


X =X YO C0) 
k=1 


如 何 直 接 由 叉 来 确定 主 成 分 才能 使 这 RIRE? 考 
虑 以 下 最 小 误差 优化 问题 : 


n 2p 


min ges v d 


i=1 j=l 
st. Ux ZO, f, 20,i=1,2,. nk-12,-- sr, 


Q1) 


dU XS le WO- (Euo, O+) i, 2 dt 
其 中 zl s-l s-l ， 
+| | (0-3 $ u0, D+ Y i, Ó, 2 dt 


i=1,2,.…,n, j=1,2,…,p 


X, 入, 分 别 为 五 和 况 中 的 第 (DD 个 元 素 。 如 果 


(t Ms os UH Loss) 为 (21) 的 最 优 解 ， 那么 第 k 个 主 


RIYO 的 第 i 个 元 素 的 分 位 函数 Q(t) 为 


Q; (0 - 940,0) * iO, 


kzl2,-.r, 
下 面 给 出 改进 的 直方 图 数据 主 成 分 分 析 法 ， 称 为 非 负 直方 
图 PCA (NHV-PCA). 
a) 根 据 式 (10) 和 (13) 计 算出 协 方差 矩 阵 V。 
pb) 利用 式 (177) 和 (19) 计 算 非 负 向 量 组 v ,yy ， 其 中 
k 满足 前 个 主 成 分 的 累积 方差 贡献 率 达 到 一 确定 的 百分比 。 
9 求解 问题 式 (21) 得 最 优 解 
u” = (uy us, s ull ，…, 部 x) ， 并 计算 第 1 个 主 成 分 中 


第 i 元 素 的 分 位 函数 : 
QD = Yu,0, G + HO, ， 


iz12,-.n. 
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于 是 ， 计 算 QI OO 的 积分 〈 称 之 为 主 成 分 CQ; (1) 的 分 位 值 ) 
qa = JIZ dt - Yu, - à) fiQ; (dt 1212,.-.k, 


k<r, izLl2,-.n, 


3 ”数值 实验 结果 与 分 析 


3.1 模拟 数据 集 

本 小 节 利 用 模拟 数据 集 验 证 算法 的 有 效 性 。 结 合 Monte 
Carlo 实验 方法 ， 从 每 个 符号 数据 内 部 随机 选取 m 个 单 值 数据 
来 近似 模拟 该 符号 数据 ，m 越 大 ， 所 取 的 这 些 数 越 能 代表 该 符 
号 数据 。 参 考 文献 [3], 假设 有 三 组 不 同类 型 的 正 态 分 布 Cl、C2 
和 Cs, 它们 的 均值 55 75 28 9; 服从 不 同 区 间 上 的 均匀 分 布 , 如 
表 BER. 


n 


表 1 三 类 数据 

Hj ô, 
CI U[-5.2] U[12] 
C2 U[-3,3] U[12] 
C3 U[2,5] U[1,2] 


id X, 为 符号 型 数据 样本 和 矩阵， 其 中 元 素 X; 服从 正 态 分 
fg NGQu0;) 。 为 了 将 本 文 算法 与 经 典 PCA 和 ND-PCA 进行 比 
较 ， 需 要 生成 ND-PCA 法 所 需 的 正 态 分布 值 采样 矩阵 XX,、, 、 
经 典 PCA 的 单 值 采样 矩阵 以 及 适用 于 本 文 算法 的 直方 图 数据 
和 矩阵。 数据 矩阵 生成 的 过 程 如 下 : 

a) 生成 三 个 服从 正 态 分 布 的 符号 数据 样本 矩阵 XX,, ， 其 
Bj AIE X, = 06,35, 2X, 为 第 j 个 变量 ， 含 有 n 个 观 
察 值 。 对 第 7 个 正 态 分 布 变量 ， 生 成 一 个 均值 向 量 
Hy = hs ys Ho). 和 标准 偏差 向 量 0) = (015,05). 0,). ,这 上 
Ly 和 ;分 别 服从 于 [a,8] 和 [c,d] 上 的 均匀 分 布 (a,b,c,d 是 任 ; 
的 )。 将 这 三 个 矩阵 合并 为 一 个 3n x p HEE Xp ， 执 行 ND- 
PCA 算法 并 获得 分 类 精度 。 

bo 对 符号 数据 矩阵 Xx,， 从 每 个 服从 正 态 分 布 Nyo) 
的 元 素 中 任意 抽取 M 个 数据 ， 形 成 一 个 (3n*M)xp 的 单 值 数据 
ERE Kormyxp> PATAH PCA 并 计算 分 类 精度 。 

c) 对 符号 数据 矩阵 Xax，， 从 每 个 服从 正 态 分 布 WU,cy) 
的 元 素 中 任意 抽取 M 个 数据 并 进行 统计 生成 直方 图 数据 , 得 到 
直方 图 数据 矩阵 Hsu, 并 执行 NHV-PCA 算法 并 分 类 精度 。 
以 上 三 个 实验 均 重 复 R 次 , 并 求 出 R 次 的 平均 值 。 所 有 实 
验 均 假设 n=50，p=6，R=10， 而 M 则 分 别 取 100, 500, 1000, 
5000，10000。 实 验 结果 如 表 2 所 示 。 


I-L2,-.k, 大 S7，1=12…7。 
R2 分 类 精度 对 比 /% 
M 对 比方 法 特征 1 FME 2 FME 3 FME 4 寺 征 5 
ND-PCA 84.13 82.93 90.4 93.86 99.07 
100 经 典 PCA 99.52 99.63 99.26 99.64 98.71 
NHV-PCA 98.48 98.86 98.67 98.86 98.5 
500 ND-PCA 84.13 82.93 90.4 93.86 99.07 
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经 典 PCA 99.32 98.95 98.05 99.6 98.93 
NHV-PCA 98.27 98.3 98 98.4 98.43 
ND-PCA 84.13 82.93 90.4 93.86 99.07 
1000 经 典 PCA 99.04 99.4 97.84 98.61 98.69 
NHV-PCA 98.67 98.86 96.57 97.71 98.1 
ND-PCA 84.13 82.93 90.4 93.86 99.07 
5000 经 典 PCA 98.64 98.93 97.62 98.95 98.99 
NHV-PCA 98.67 98.85 97.43 98 98.56 
ND-PCA 84.13 82.93 90.4 93.86 99.07 
10000 经 典 PCA 98.62 98.7 98.01 98.7 98.75 
NHV-PCA 98.66 98.69 97.93 98.69 98.73 
33 时 间 对 比 » 
M 特征 1 特征 2 特征 3 特征 4 特征 5 
ND-PCA 0.84 0.83 0.90 0.94 0.99 
100 经 典 PCA 49.72 190.24 191.5 193.11 194.42 
v NHV-PCA 244.82 243.5 245.69 250.79 264.1 
e ND-PCA 0.84 0.83 0.90 0.94 0.99 
N 500 经 典 PCA 1312.85 5227.8 6248.99 5783.79 5561.13 
E NHV-PCA 262.69 273.17 343.06 301.37 311.04 
e ND-PCA 0.84 0.83 0.90 0.94 0.99 
LO 1000 经 典 PCA 6757.77 7225 7247.12 7335.38 7658.65 
e NHV-PCA 313.51 312.61 317.86 322.24 330.43 
qu ND-PCA 0.84 0.83 0.90 0.94 0.99 
e 5000 经 典 PCA 233509.3 234500.1 234525.1 234595.8 234607.1 
N NHV-PCA 249.44 255.67 257.32 259.11 260.55 
à 2 ND-PCA 0.84 0.83 0.90 0.94 0.99 
X 10000 经 典 PCA 1284300 1284307 1284312 1284315 1284319 
E NHV-PCA 289.32 297.57 310.32 314.66 317.49 
E am s Es : PR : 
oO 表 2 可 见 , Bi M 的 逐渐 增 大 ， 主 成 分 分 析 法 计算 可 以 看 出 ，ND-PCA 所 用 时 间 最 小 ， 这 是 因为 该 算法 只 是 利用 


得 到 的 分 类 精度 逐渐 降低 。 这 是 


样本 只 代表 T 
据 内 部 比较 分 


符号 数据 内 的 部 分 


散 ， 因 此 容易 区 分 ; 
数 增加 ,它们 在 符号 数据 内 部 分 散 比 较 密 负 


因为 ， 当 M 较 小 时 ， 所 取得 的 


了 每 个 正 态 


信息 ， 并 且 所 取样 本 在 符号 数 


当 M 较 大 时 ， 


旦 三 类 数据 集 本 身 有 部 分 重合 元 


每 个 符号 数据 


直接 分 解 


颖 得 的 特征 向 量 
永远 为 34nxp WERE, HAS 


m 


x K 此 样本 数据 交叉 重合 的 


部 分 较 多 。 另 外 , NHV-PCA 算法 


的 分 类 精度 相对 稳定 , 这 是 因 


为 , 无 论 M 取 值 为 100, 1000 或 是 10000, NHV-PCA 算法 都 是 


对 采样 值 进行 


数据 间 的 相关 


分 布 的 符号 数据 ， 而 本 文 提 


统计 形成 直方 图 数 
随 着 M 逐渐 增 大 ， 经 
致 ， 从 一 定 程度 上 说 


任意 分 布 的 符号 型 数据 ， 因 此 更 


表 3 给 


了 三 种 算法 运行 一 


据 。 另 外 ,由 表 2 还 


可 以 看 到 ， 

PCA 和 NHV-PCA 的 分 类 精度 趋 于 一 
H NHV-PCA 算法 更 能 从 整体 上 
性 。 与 前 两 种 算法 相 比 ，ND-PCA 的 分 类 精度 在 
所 取 特 征 维 数 较 低 时 也 比较 低 ， 


巴 担 各 类 


而 在 所 取 特 征 维 数 较 高 时 会 取 
得 比较 好 的 分 类 效果 。 但 是 ，ND-PCA 方法 仅 适用 于 服从 正 态 


出 的 NHV-PCA 算法 则 适 | 


有 普遍 性 。 


次 所 消耗 的 时 间 。 从 表 下 


] 于 具有 


结果 


方差 矩阵 进行 分 解 ,但 


K, 大 HEH 


FEE 


pui 


经 典 PCA 运行 一 


NHV-PCA 


法 的 增 大 


而 NHV-PCA 法 


LH 


lm 


然 ND-PCA 花费 时 间 


EJA EKN, KHE 


A 
取出 数据 中 的 有 用 信息 ， 并 且 能 从 全 局 上 把 握 整 个 数据 集 。 


L 协 


行 一 次 所 用 
运行 一 次 所 
io BJA NHV-PCA 法 和 经 典 PCA 法 
司 随 着 M 的 增 大 而 增加 ， 但 整体 上 看 
晶 度 远 小 于 经 典 PCA 的 增 大 幅度 。 
日 以 上 三 种 算法 分 类 精度 与 时 间 的 对 比 可 以 看 到 ， 
方 图 主 成 分 分 析 法 可 以 快速 而 有 郊 


分 布 数据 的 均值 上 和 偏差 65， 并 对 协 方差 矩阵 进行 
&, FALE M 取 值 为 多 少 ， 
量 不 变 。 而 经 典 PCA 虽然 也 是 对 
是 当 M 较 大 时 ， 所 得 到 的 数据 越 来 越 庞 
b 会 随 之 增 大 。 当 M 较 小 (例如 M=100) 时 ， 

次 所 消耗 的 时 间 小 于 NHV-PCA 法 , 而 当 数 据 
较 大 (例如 M>=1000) 时 ， 经 典 PCA 法 的 运行 时 间 将 远大 于 
NHV-PCA 法 。 例 如 ， 当 M-10000 时 , 经 典 PCA 运 
时 间 长 达 1284300s C7 14 天)， 
用 的 时 间 大 约 为 290s 左右 
运行 一 次 所 消耗 的 时 i 


ND-PCA 


也 较 短 , 但 需要 提取 多 个 特征 才能 达到 
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高 的 分 类 精度 ， 


HE 


方 图 算法 相 较 于 ND-PCA 算法 更 具有 普 


遍 性 ， 而 不 仅仅 局 限 

3.2 Iris 数据 集 
本 小 节 利 用 

行 对 比 。Iris 数据 集 由 


于 正 态 分 布 型 数据 。 


Iris 数据 集 与 文献 [2] 中 Histogram PCA 算法 进 


150 个 具有 4 个 特征 的 样本 组 成 。 共 有 3 


个 类 ， 
属于 第 一 类 ， 中 间 50 
第 三 类 。 从 每 个 类 别 


再 对 其 统计 分 析 生 成 直方 图 数据 ， 每 个 类 别 随机 和 


即 setosa, versicolour 和 verginica。 其 中 ， 前 50 个 样本 


个 样本 属于 第 二 类 ， 最 后 50 个 样本 属于 
随机 抽取 30 个 样本 ， 对 其 归 一 化 处 理 ， 
由 取 5 次 ， 


ZN o 


此 可 以 获得 15 个 4 维 直方 图 数据 。 绘 制 直方 图 数据 如 图 2 所 


2 Tris 原始 数据 直方 图 


新 一 一 手下 一 ez e 
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图 3 Histogram PCA 算法 主 成 分 直方 图 

图 3.4 分 别 绘 制 出 经 过 Histogram PCA 算法 与 非 负 直 方 图 
主 成 分 分 析 法 计算 后 得 到 的 直方 图 。 经 过 降 维 后 的 直方 图 数据 
可 以 很 明显 的 根据 前 两 维 变量 将 三 类 数据 分 辨 出 来 ， 都 起 到 了 
很 好 的 降 维 效果 。 但 是 对 比 图 3、4 发 现 ， 经 过 Histogram PCA 
算法 得 到 的 直方 图 数据 许多 概率 为 负 ， 已 经 不 属于 传统 意义 上 
的 直方 图 数据 ， 与 实际 情况 不 符 ， 但 是 经 过 非 负 直方 图 主 成 分 
分 析 法 降 维 得 到 的 直方 图 数据 可 以 很 完整 的 表示 出 一 个 直方 图 


数据 ， 具 有 很 好 的 实际 


REY. 
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4 NHV-PCA 算法 后 的 直方 图 数据 


3.3 ”股票 数据 集 
国 股票 市 场 数据 
重组 ， 重 新 命名 ， 


us 


以 及 暂停 恢复 等 


量 庞大 ， 结构 复杂 , 由 于 股票 的 合并 ， 
， 导 致 对 单 支 股票 进行 追踪 


研究 较为 困难 ， 但 如 果 从 宏观 上 以 每 一 类 股票 为 研究 对 象 ， 可 
以 从 整体 上 把 握 各 类 股票 间 的 关系 和 规律 。 为 此 ， 本 实验 选取 


上 海 证 券 交 易 市 场 2010 年 1 月 1 
上 市 公司 
值 ( X, )、 换 手 率 ( X; )， 波 动 率 (X ) 以 及 
票数 据 进行 打包 生成 直方 图 数据 进行 实验 。 数 据 处 理 过 
首先 将 所 有 股票 按 市 值 进行 排序 ， 并 分 为 大 盘 股 、 


Hu 


Háj2010 ^E 12 H 31 H 
的 交易 数据 ， 选 取 5 个 变量 : 年 个 股 总 市 值 ( X, )、P/E 
报 率 ( X; )， 将 每 类 股 


un 


HA 


程 如 下 : 
中 盘 股 


和 小 盘 股 ; 其 次 , 对 每 个 类 别 股票 按 
去 除 掉 每 个 类 别 中 最 高 和 最 低 的 5% 后 再 取 P/E 的 中 位 数 
临界 点 , P/E 大 的 部 分 为 增长 股 ， 


照 市 盈 率 (PE ) 进行 排序 ， 
作为 
小 的 部 分 为 价值 股 , 因此 形成 


s 


六 种 股票 : 


股 (M-G)， 


大 盘 增 长 股 (L-G)， 大 盘 价 值 股 (L-V)， 中 盘 增 长 


中 盘 价 值 股 〈M-V ); 


小 盘 增 长 股 〈S-G)， 小 盘 价 


值 股 〈S-V)。 对 六 种 股票 的 每 个 变量 进行 归 一 化 处 理 


统计 形 


成 直方 图 变量 ， 如 图 5 所 示 ， 图 中 每 
列 代表 一 个 变量 。 


LOLA 


0 
人 


20 20 20 20 20 


0 o 0 
0 05 1 0 05 1 0 05 1 0 05 1 0 05 1 


0 
20 | 20 20 I 20 il 20 ll 
0 0 0 0 0 


0.05 1.005 1 0 05 1 


20 20 20 20 20 


0 0 0 0 
005.1 005.1 005.1 005 1 0 O5 1 


图 52010 年 股票 数据 的 直方 图 
利用 本 文 提 出 的 非 负 主 成 分 分 析 NHV-PCA 算法 ， 
原 数据 中 61% 的 信息 情况 下 可 以 得 到 前 两 个 主 成 分 : 


行 代表 一 种 股票 ， 每 


在 提取 
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Y = 0.73810, + 0.12800, + 0.03260, + 0.35380, 


QË = 0.53780 + 0.47530, + 0. 63040，+ 0.23120, = 

图 6 绘制 了 前 两 个 主 成 分 的 大 致 分 布 。 观 察 发 现 ， 第 一 个 ui 
ERI FO. Q50. 0 Stc. 其 中 ，Q 代表 一 个 公司 的 P 
总 市 值 ，2 对 应 其 P/E 值 , 用 来 衡量 一 支 股票 是 否 被 高 估 ;， O, il . 

和 Q, 分 别 表示 换 手 率 和 波动 率 , 衡量 一 支 股票 的 交换 频率 与 价 | 

格 波动 ， 这 两 个 变量 代表 了 一 支 股票 的 动态 变化 因此 可 以 表示 i 

一 支 股票 的 “风险 ”。Q 与 Q, 、Q, 的 负 相 关 表明 中 国 股票 市 场 

大 盘 股 风 险 低 、 小 盘 股 风 险 高 的 现象 。 图 8 对 所 有 单 支 股票 利用 经 典 PCA 进行 降 维 后 的 效果 

另外 由 图 6 发 现 ， 第 一 个 主 成 分 中 市 值 所 占 比重 最 大 ， 第 mp 
二 个 主 成 分 中 P/E 值 与 波动 率 所 占 比重 较 大 ， 因 此 第 二 个 主 成 
分 可 以 近似 表示 “风险 ” 对 6 种 类 型 的 股票 进行 主 成 分 重 构 后 在 实际 问题 中 符号 型 数据 有 着 广泛 的 应 用 ， 从 而 出 现 了 许 
得 到 图 7 所 示 主 成 分 直方 图 。 多 区 间 符 号 数据 的 降 维 方法 。 最 为 经 典 的 方法 有 C-PCA 和 V- 

, PCA, CIPCA 和 正 态 分 布 ND-PCA 等 , 这些 方法 均 假 设 区 间 型 
9s 数据 服从 均匀 分 布 或 者 正 态 分 布 ， 但 是 对 于 非 均 匀 分 布 或 非 正 
了 态 分 布 的 数据 具有 一 定 的 局 限 性 。 本 文 针对 直方 图 符号 数据 利 
p MEN COPENEE 用 Wasserstein 距离 和 Diast 等 人 的 线性 回归 方法 ， 给 出 了 一 种 
E 非 负 直方 图 主 成 分 分 析 法 ， 该 方法 相 比 已 有 的 符号 数据 主 成 分 
M | Lis 分 析 算 法 更 具有 普遍 性 ， 并 且 克 服 了 文献 [3] 中 直方 图 PCA 算 
法 所 获得 主 成 分 系数 可 能 为 负 的 缺点 ， 更 好 地 保留 了 此 类 数据 
BEEN a 的 原始 信息 。 通 过 模拟 数据 集 和 在 中 国 股票 市 场 的 实证 分 析 验 
图 6 前 两 个 主 成 份 的 大 致 分 布 证 了 算法 的 有 效 性 。 
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